在处理听觉语音输入时,通常假定人类的感知系统可以募集运动知识。本研究使用旋转性建模和深度学习,研究了如何将此发音信息用于在自我监督的环境中发现语音单元。我们使用矢量定量的变分自动编码器(VQ-VAE)从发音和声音语音数据中学习离散表示。与零资源范式一致,然后使用ABX测试来研究提取的表示如何编码语音相关的属性。实验是在三个不同的英语和法语的不同语料库上进行的。我们发现,关节信息而不是根据发音的位置来组织潜在的表示,而语音声学主要是根据发音方式来构造潜在空间。我们表明,这两种方式的最佳融合可以使这些语音维度的联合表示比单独考虑的每种模式更准确。由于通常在实际情况下无法获得发音信息,因此我们最终以自我监督的方式从言语声学中推断出的好处。
translated by 谷歌翻译